# Diffbot

> [Diffbot](https://docs.diffbot.com/docs) 是一个读取网页的服务。与传统的网页抓取工具不同，
> `Diffbot` 不需要任何规则来读取页面上的内容。
> 它从计算机视觉开始，将页面分类为 20 种可能的类型之一。然后，根据页面的类型，使用机器学习模型来解释内容，并识别出关键属性。
> 结果是将网站转化为干净结构化的数据（如 JSON 或 CSV），可以直接供您的应用程序使用。

## 安装和设置

阅读 [说明](https://docs.diffbot.com/reference/authentication) 获取 Diffbot API 令牌。

## 文档加载器

查看一个 [使用示例](/docs/modules/data_connection/document_loaders/integrations/diffbot.html)。

```python
from langchain.document_loaders import DiffbotLoader
```
